La Magie des Maths derrière vos Écrans

Le Problème

Le défi : Remplir les vides d'une matrice géante et clairsemée.

U\F

F1

F2

F3

Alice

5

?

4

Bob

?

1

?

Étape 1 : Trouver les Similitudes

Pearson (Tendances)

sim(u,v) ≈ Corrélation

Mesure si 2 utilisateurs varient de la même façon. +1 (Jumeaux), -1 (Opposés).

Cosinus (Angle)

sim(x,y) = cos(θ)

Angle entre deux vecteurs de notes. Si l'angle est nul, goûts identiques.

Jaccard (Ensemble)

J(A,B) = |A ∩ B| / |A ∪ B|

Pourcentage d'éléments communs (ex: films vus par les deux).

Étape 2 : Filtrage Collaboratif

Deux approches pour deviner votre note r̂_u,i.

User-Based

« Dis-moi qui sont tes amis... »

Pondère les notes des voisins similaires.

Item-Based

« Si tu aimes Toy Story... »

Utilise la similarité entre les films.

Le Cœur : Factorisation Matricielle

Découvrir les Facteurs Latents

Au lieu de noter directement, on décrit utilisateurs et films par des caractéristiques cachées (Action, Comédie, etc.). La grosse matrice se brise en deux matrices fines (P et Q).

Le Modèle Complet (Avec Biais) :

r̂_ui = μ + b_u + b_i + q_i^Tp_u

r̂_ui Note prédite
μ Moyenne globale
b_u Biais utilisateur (critique/généreux)
b_i Biais item (popularité du film)
q_i Profil du film
p_u Profil de l'utilisateur

Comment l'IA Apprend

Descente de Gradient Stochastique

Minimiser l'erreur entre la vraie note r_ui et la prédiction r̂_ui.

Calculer l'erreur : e_ui = r_ui - r̂_ui
Corriger les profils d'un petit pas (γ) dans la direction opposée.
Répéter !

Le Frein (Régularisation λ)

Empêche le modèle de tricher ou de faire du surapprentissage.

Le Bulletin de Notes

Est-ce que la prédiction est bonne ?

RMSE

√( Moyenne des erreurs² )

Pénalise fortement les "catastrophes".
Idéal pour éviter les pires recommandations.

MAE

Moyenne des | erreurs |

Mesure l'erreur moyenne réelle.
N'exagère pas les grands écarts.